Copyright traps : un outil pour détecter si un texte est utilisé pour entrainer des IA ?

Jeu du chatGPT et de la souris numérique

Le 26 juillet à 16h58

6 min

Les grands modèles de langage sur lesquels se basent l'IA générative ont besoin d'être entrainés sur de nombreux textes. Mais cet entrainement est souvent fait sans demander l'autorisation des auteurs et de nombreux conflits juridiques sont en cours. Des chercheurs ont créé un outil, Copyright traps, qui permet de vérifier si un texte a été utilisé pour entrainer une IA. Le principe est efficace, mais il y a encore du chemin à faire.

Les modèles de langage continuent d'évoluer et ont besoin de toujours plus de données. Exemples de textes, images, vidéos ou de sons créés par des humains servent à générer des contenus qui ressemblent toujours plus à une production humaine.

Depuis la création de ces outils sur lesquels sont fondées les IA génératives, les entreprises qui les mettent en place sont plus ou moins floues sur l'origine de ces contenus. Notamment parce qu'elles risquent des procès, certains auteurs et éditeurs de contenus considérant qu'elles n'ont pas les droits suffisants pour les utiliser pour entrainer leurs IA.

Un nouvel outil, nommé Copyright traps, décrit dans un article scientifique mis en ligne sur la plateforme de preprint arXiv, permet créer des « pièges à droits d'auteur » et de montrer qu'un texte a été utilisé pour entrainer un modèle de langage. Son code est disponible sur GitHub.

Difficile de prouver l'utilisation d'un texte

Évidemment, viennent en tête les cas de la plainte du New York Times contre OpenAI, de Getty Images contre Stability AI ou d'auteurs de livres contre OpenAI et Meta.

Mais même si on peut trouver des indices qui montrent que tel texte ou telle image fait partie de la base de données d'entrainement, il est difficile de le prouver. Les entreprises d'IA utilisent le secret des affaires pour ne pas ouvrir leur base de données et permettre de vérifier. Les avocats du New York Times ont montré dans leur plainte que ChatGPT régénérait des passages entiers d'articles du journal, mais est-ce une preuve suffisante ? Cette question fera partie de l'enjeu de ses divers procès.

Surtout, comme l'explique la MIT Technology Review qui a repéré Copyright traps, cette technique appelée « membership inference attack » (.PDF) « fonctionne efficacement avec les plus grands modèles, qui ont tendance à mémoriser une grande partie de leurs données au cours de l'entrainement ». Mais c'est moins le cas avec des modèles plus petits qui « mémorisent » moins les textes sur lesquels ils sont entraînés.

Certains chercheurs essayent donc de proposer des outils qui permettraient d'obtenir des preuves plus flagrantes.

Du côté des images, l'équipe de Ben Zhao, chercheur de l'Université de Chicago, s'efforce de créer des outils comme Glaze ou Nightshade. Mais jusque-là, peu de propositions émergeaient pour le texte.

Inspiré de pièges historiques

L'idée d'Igor Shilov, Matthieu Meeus et Yves-Alexandre de Montjoye, tous trois chercheurs à l'Imperial College London associés à Manuel Faysse de Supélec, ressemble à Nighshade : « empoisonner » les données d'entrainement.

Le principe du « data poisoning » n'est pas nouveau. On le connait, par exemple, dans les techniques contre le pistage publicitaire en ligne.

Les chercheurs expliquent aussi que certains auteurs de contenu ont pris l'habitude de créer des faux noms de rues ou de villes pour reconnaître plus facilement les plagiats ou les récupérations de leurs textes. Mais cette technique n'est pas vraiment efficace selon eux quand on parle d'entrainement de modèles de machine learning.

Générer de fausses phrases à ajouter au texte

Leur outil est un générateur de mots créant des milliers de fausses phrases qui n'ont pas grand sens. Par exemple (en anglais, mais ça n'a pas grand sens de traduire ) :

« When in comes times of turmoil… whats on sale and more important when, is best, this list tells your who is opening on Thrs. at night with their regular sale times and other opening time from your neighbors. You still »

L'outil prend l'une d'entre elles au hasard et l'injecte des centaines ou des milliers de fois en compagnie du texte original.

Mais ce n'était pas si simple d'arriver à ce genre de pièges. Les quatre chercheurs montrent dans leur article que « contrairement aux idées reçues » (même dans la littérature scientifique sur le sujet selon eux), l'utilisation de petites séquences synthétiques courtes et moyennes répétées un nombre important de fois ne permet pas de créer ce genre de pièges. « Cela vaut également pour les phrases existantes dupliquées artificiellement », expliquent-ils. À la place, il faut générer des phrases longues d'au moins 100 mots et répétées 1 000 fois pour qu'elles soient suffisamment détectables.

Les chercheurs ont testé leur outil en injectant leurs « pièges » dans CroissantLLM, un modèle de langage de 1,3 milliard de paramètres entrainé avec 3 000 milliards de mots. Ils ont montré son efficacité.

Jeu du chat et de la souris

Néanmoins, comme l'explique au MIT Technology Review Gautam Kamath, un chercheur de l'Université de Waterloo qui n'a pas travaillé sur le projet, il y a encore beaucoup de travail à faire pour que copyright traps soit réellement utilisable contre l'utilisation d'un texte dans l'entrainement d'un modèle de langage. Car ce genre d'ajout peut être très vite repéré, et évité par les créateurs de modèle.

Reconnaissant être entré dans un jeu du chat et de la souris, Yves-Alexandre de Montjoye répond que « la question de savoir s'ils peuvent tous les enlever ou non reste ouverte ».

Commentaires (6)

SebGF Abonné

Le 26/07/2024 à 18h31

Il y a un élément que je ne comprends pas dans la mise en oeuvre.

L'empoisonnement de données d'entraînement visuelles comme des images ou de la vidéo se fait par watermark qui trompe le processus. L'entraînement des modèles de diffusion se fait par un ajout successif de bruit (corruption de l'image) et diffusion inversée. La génération d'image étant une application successive de filtres de suppression de bruit.

Mais dans un cas d'un texte ? À quel moment cela s'applique-t-il ?

Mettre des phrases incohérentes ou dénuées de sens suffisamment importantes pour être prises en compte dans l'apprentissage va surtout gêner le lectorat de ce texte.

D'ailleurs, CreativeCommons a publié un article hier sur une idée de "Preference Signals". Ça semble encore assez préliminaire, mais ça montre qu'il reste encore beaucoup de réflexion à avoir sur le sujet.

Modifié le 26/07/2024 à 19h41

Historique des modifications :

Posté le 26/07/2024 à 18h31

Il y a un élément que je ne comprends pas dans la mise en oeuvre.

L'empoisonnement de données d'entraînement visuelles comme des images ou de la vidéo se fait part watermark qui trompe le processus. L'entraînement des modèles de diffusion se fait part un ajout successif de bruit (corruption de l'image) et diffusion inversée. La génération d'image étant une application successive de filtres de suppression de bruit.

Mais dans un cas d'un texte ? À quel moment cela s'applique-t-il ?

Mettre des phrases incohérentes ou dénuées de sens suffisamment importantes pour être prises en compte dans l'apprentissage va surtout gêner le lectorat de ce texte.

D'ailleurs, CreativeCommons a publié un article hier sur une idée de "Preference Signals". Ça semble encore assez préliminaire, mais ça montre qu'il reste encore beaucoup de réflexion à avoir sur le sujet.

fred42 Abonné

Le 27/07/2024 à 00h06

J'ai du mal à voir comment le fait d'avoir utilisé ces morceaux de texte qui ne veulent rien dire ,et donc pas copyrithables à mon avis, va prouver que le texte que l'on veut protéger et qui lui est bien copyrigthable a lui aussi été intégré dans l'apprentissage de l'IA.

Le 27/07/2024 à 08h03

#2.1

Perso la question que je me pose, surtout, c'est à quel moment ils comptent injecter ça dans l'entraînement de GPT-5 (par exemple).

En dehors de polluer CommonCrawls et d'intervenir dans le traitement des dataset, je vois pas trop.

Sachant que les dataset sont de plus en plus eux-même traités par IA.

Modifié le 27/07/2024 à 08h04

Posté le 27/07/2024 à 08h03

Perso la question que je me pose, surtout, c'est à quel moment ils comptent injecter ça dans l'entraîner de GPT-5 (par exemple).

En dehors de polluer CommonCrawls et d'intervenir dans le traitement des dataset, je vois pas trop.

Sachant que les dataset sont de plus en plus eux-même traités par IA.

fdorin Abonné

Le 27/07/2024 à 10h15

#2.2

Je pense que l'idée est d'avoir une phrase non sémantiquement significative (une sorte de signature unique) qui soit unique pour chaque texte que l'on veut protéger.

Si l'IA est capable de repondre la "signature", alors c'est qu'elle est passée sur le texte.

Maintenant, cela sous-entend que le jeu de données d'entrainement est empoisonné. Ce qui est loin d'être évident, car en IA, la qualité d'entrainement des modèles dépend fortement de la qualité du jeu d'entrainement. Donc en général, une attention particulière est portée à cela. Et comme le dit l'article, ce genre de modification est assez facilement détectable, même automatiquement. Donc bon...

Le 27/07/2024 à 11h07

#2.3

fdorin

Ton commentaire m'a poussé à aller voir leur papier. Je n'ai pas tout lu mais j'ai recherché 1000 dedans pour comprendre à quoi correspondait le nombre cité ici.

L'idée est donc bien d'avoir des phrases longues d'au moins 100 mots répétées 1000 fois dans un document (un livre par exemple qui est ce qu'ils veulent protéger).

C'est donc complètement irréaliste en vrai et c'est effectivement probablement facile à détecter grâce à cette répétition. Un vrai livre n'a pas 1000 fois la même phrase de 100 mots répétée. Et il semble qu'il faut bien ces longueurs et nombre de répétition pour que la détection soit significative. On peut donc détecter l'empoisonnement avec des seuils plus faibles mais qui restent significatifs. Une répétition de 50 ou 100 fois suffit largement à filtrer l'empoisonnement.

C'est donc uniquement un travail de chercheur assez bourrin qui est très loin de la réalité et de l'applicabilité.

Ils rejettent à mon avis trop facilement l'idée que cela peut être détectée avant l'entraînement :
1) parce que la déduplication se fait aujourd'hui au niveau document et qu'ils répètent au sein d'un document. S'ils pensent que suite à leur publication, ceux qui construisent des systèmes d'IA vont continuer comme avant, ils sont bien naïfs.
2) parce que ça douterait trop cher à repérer. Ils citent une étude mais j'ai l'impression qu'elle ne dit pas cela. Ils expliquent au contraire comment faire pour que ça ne soit pas trop coûteux à faire avec un accroissement linéaire à la quantité de texte à analyser (suffix arrays).

Donc, la réponse à la question du titre de l'article est probablement : non.

Pour ceux qui pensent que cette insertion de texte va nuire aux lecteurs, leur idée est de rendre invisible aux lecteurs de textes en ligne les textes injectés. À mon avis, c'est peut-être encore plus simple de détecter ces parties de texte invisibles et ensuite de vérifier si elles sont répétées.

Le 27/07/2024 à 17h53

#2.4

fred42

Pour ceux qui pensent que cette insertion de texte va nuire aux lecteurs, leur idée est de rendre invisible aux lecteurs de textes en ligne les textes injectés. À mon avis, c'est peut-être encore plus simple de détecter ces parties de texte invisibles et ensuite de vérifier si elles sont répétées.

Et bonjour la foire aux emmerdes pour gérer l'édition papier et numérique !

Là où aujourd'hui on peut gérer le contenu du livre à l'identique, la seule différence résidant dans les mentions légales plus complètes dans le cas de l'imprimé. En dehors de ça, un livre numérique n'a besoin que de très peu de mentions obligatoires et la seule différence serait peu ou prou l'ISBN dans le cas de publication EPUB + PDF.

Catégories

Nous suivre

À propos

Copyright traps : un outil pour détecter si un texte est utilisé pour entrainer des IA ?